智能论文笔记

Synthesizing Annotated Image and Video Data Using a Rendering-Based Pipeline for Improved License Plate Recognition

Andreas Spruck , Maximilane Gruber , Anatol Maier , Denise Moussa , Jürgen Seiler , Christian Riess , André Kaup

分类：计算机视觉

2022-09-28

在神经网络应用中，不足的培训样本是一个常见的问题。尽管数据增强方法至少需要最少数量的样本，但我们提出了一种基于新颖的，基于渲染的管道来合成带注释的数据集。我们的方法不会修改现有样本，而是合成全新样本。提出的基于渲染的管道能够在全自动过程中生成和注释合成和部分真实的图像和视频数据。此外，管道可以帮助获取真实数据。拟议的管道基于渲染过程。此过程生成综合数据。部分实现的数据使合成序列通过在采集过程中合并真实摄像机使综合序列更接近现实。在自动车牌识别的背景下，广泛的实验验证证明了拟议的数据生成管道的好处，尤其是对于具有有限的可用培训数据的机器学习方案。与仅在实际数据集中训练的OCR算法相比，该实验表明，角色错误率和错过率分别从73.74％和100％和14.11％和41.27％降低。这些改进是通过仅对合成数据训练算法来实现的。当另外合并真实数据时，错误率可以进一步降低。因此，角色错误率和遗漏率可以分别降低至11.90％和39.88％。在实验过程中使用的所有数据以及针对自动数据生成的拟议基于渲染的管道公开可用（URL将在出版时揭示）。

translated by 谷歌翻译

An annotated instance segmentation XXL-CT dataset from a historic airplane

Roland Gruber , Nils Reims , Andreas Hempfer , Stefan Gerth , Michael Salamon , Thomas Wittenberg

分类：计算机视觉

2022-12-16

The Me 163 was a Second World War fighter airplane and a result of the German air force secret developments. One of these airplanes is currently owned and displayed in the historic aircraft exhibition of the Deutsches Museum in Munich, Germany. To gain insights with respect to its history, design and state of preservation, a complete CT scan was obtained using an industrial XXL-computer tomography scanner. Using the CT data from the Me 163, all its details can visually be examined at various levels, ranging from the complete hull down to single sprockets and rivets. However, while a trained human observer can identify and interpret the volumetric data with all its parts and connections, a virtual dissection of the airplane and all its different parts would be quite desirable. Nevertheless, this means, that an instance segmentation of all components and objects of interest into disjoint entities from the CT data is necessary. As of currently, no adequate computer-assisted tools for automated or semi-automated segmentation of such XXL-airplane data are available, in a first step, an interactive data annotation and object labeling process has been established. So far, seven 512 x 512 x 512 voxel sub-volumes from the Me 163 airplane have been annotated and labeled, whose results can potentially be used for various new applications in the field of digital heritage, non-destructive testing, or machine-learning. This work describes the data acquisition process of the airplane using an industrial XXL-CT scanner, outlines the interactive segmentation and labeling scheme to annotate sub-volumes of the airplane's CT data, describes and discusses various challenges with respect to interpreting and handling the annotated and labeled data.

translated by 谷歌翻译

Modeling Biological Face Recognition with Deep Convolutional Neural Networks

Leonard E. van Dyck , Walter R. Gruber

分类：计算机视觉

2022-08-13

深度卷积神经网络（DCNN）已成为生物对象识别的最新计算模型。他们的杰出成功帮助了Vision Science打破了新的基础。因此，最近的努力已经开始将这一成就转移到生物面部识别领域。在这方面，可以通过比较面部选择性生物学区域和神经元与人造层和单位进行比较来研究面部检测。同样，可以通过体内和硅面空间表示的比较来检查面部识别。在这个迷你审查中，我们总结了第一批研究。我们认为DCNN是有用的模型，它遵循生物面部识别的一般分层组织。在两个聚光灯下，我们强调了这些模型的独特科学贡献。首先，DCNN中有关面部检测的研究表明，基本面部选择性会通过前馈过程自动出现。其次，DCNN中有关面部识别的研究表明，这项挑战需要经验和其他生成机制。综上所述，由于这种新颖的计算方法能够密切控制倾向（即体系结构）和经验（即培训数据），因此这也可以为关于生物面部识别的底物的长期辩论提供详细介绍。

translated by 谷歌翻译

Unsupervised Cross-Domain Feature Extraction for Single Blood Cell Image Classification

Raheleh Salehi , Ario Sadafi , Armin Gruber , Peter Lienemann , Nassir Navab , Shadi Albarqouni , Carsten Marr

分类：计算机视觉

2022-07-01

诊断血液系统恶性肿瘤需要鉴定和分类外周血涂片中的白细胞。由不同的实验室程序，染色，照明和显微镜设置引起的域移位阻碍了最近开发的机器学习方法对从不同站点收集的数据的重复性。在这里，我们提出了一个跨域改编的自动编码器，以在三个不同的白色血细胞中从外周血涂片扫描的单个白细胞的三个不同数据集中提取特征。自动编码器基于R-CNN架构，使其专注于相关的白色血细胞并消除图像中的伪影。为了评估提取特征的质量，我们使用简单的随机森林对单个细胞进行分类。我们表明，由于仅在一个数据集中训练的自动编码器提取的丰富功能，随机森林分类器在看不见的数据集上表现出色，并且在交叉域任务中超越了Oracle网络。我们的结果表明，可以在更复杂的诊断和预后任务中采用这种无监督的方法，而无需添加昂贵的专家标签来看不见数据。

translated by 谷歌翻译

Guiding Visual Attention in Deep Convolutional Neural Networks Based on Human Eye Movements

Leonard E. van Dyck , Sebastian J. Denzler , Walter R. Gruber

分类：计算机视觉

2022-06-21

深度卷积神经网络（DCNN）最初是受生物视觉原理的启发，已演变为对象识别的最佳当前计算模型，因此表明在整个与神经图像和神经时间序列数据的比较中，都表明了与腹视觉途径的强大结构和功能并行性。随着深度学习的最新进展似乎降低了这种相似性，计算神经科学面临挑战，以逆转工程，以获得有用模型的生物学合理性。虽然先前的研究表明，生物学启发的体系结构能够扩大模型的人类风格，但在本研究中，我们研究了一种纯粹的数据驱动方法。我们使用人类的眼睛跟踪数据来直接修改训练示例，从而指导模型在自然图像中对象识别期间的视觉注意力朝着或远离人类固定的焦点。我们通过GARGCAM显着性图比较和验证不同的操纵类型（即标准，类人类和非人类的注意力）与人类参与者的眼动数据。我们的结果表明，与人类相比，所提出的指导焦点操作的作用是在负方向上的意图，而非人类样模型则集中在明显不同的图像部分上。观察到的效果是高度类别特异性的，它通过动画和面部的存在增强，仅在完成前馈处理后才开发，并表明对面部检测产生了强烈的影响。然而，使用这种方法，没有发现人类的类似性。讨论了公开视觉注意力在DCNN中的可能应用，并讨论了对面部检测理论的进一步影响。

translated by 谷歌翻译

Better Uncertainty Calibration via Proper Scores for Classification and Beyond

Sebastian Gruber , Florian Buettner

分类：机器学习 | (统计)机器学习

2022-03-15

由于模型可信度对于敏感的现实世界应用至关重要，因此从业者越来越重视改善深神经网络的不确定性校准。校准误差旨在量化概率预测的可靠性，但其估计器通常是偏见且不一致的。在这项工作中，我们介绍了适当的校准误差的框架，该校准误差将每个校准误差与适当的分数联系起来，并提供具有最佳估计属性的相应上限。这种关系可用于可靠地量化模型校准改进。与我们的方法相比，我们从理论上和经验上证明了常用估计量的缺点。由于适当的分数的广泛适用性，这可以自然地扩展到分类之外的重新校准。

translated by 谷歌翻译

Level set learning with pseudo-reversible neural networks for nonlinear dimension reduction in function approximation

Yuankai Teng , Zhu Wang , Lili Ju , Anthony Gruber , Guannan Zhang

分类：机器学习

2021-12-02

由于维度的诅咒和训练数据的限制，即使对于强大的深度神经网络，近似高维功能是一个非常具有挑战性的任务。灵感来自使用可逆剩余网络（REVNET）的非线性级别集学习（NLL）方法，本文提出了一种通过学习级别集（钻头）的尺寸减少方法，用于函数近似。我们的方法包含两个主要组件：一个是伪可逆神经网络（PRNN）模块，有效地将高维输入变量转换为低维活动变量，另一个是基于变换的近似函数值的合成回归模块低维空间中的数据。 PRNN由于使用RevEN而言，PRNN不仅放宽了NLL方法中存在的非线性变换的可逆性约束，还可以自适应地重量每个样本的影响并控制函数对学习的活动变量的灵敏度。合成的回归使用输入空间中的欧几里德距离来选择相邻样本，其在活动变量的空间上的投影用于执行局部最小二乘性多项式拟合。这有助于解决传统本地和全球回归中存在的数值振荡问题。广泛的实验结果表明，我们的钻探方法优于NLL和有源子空间方法，特别是当目标函数在其输入域内部拥有临界点时。

translated by 谷歌翻译